在本文中,我们重新审视了钢筋学习(RL)途径的一些基本场所,以自学习红绿灯。我们提出了一种选择的选择,提供强大的性能和良好的通知来看不见的交通流量。特别是,我们的主要贡献是三倍:我们的轻量级和聚类感知状态表示导致性能提高;我们重新格式化马尔可夫决策过程(MDP),使得它跳过冗余的黄灯时间,加快学习30%;我们调查了行动空间,并提供了对非循环和循环转换之间的性能差异的洞察。此外,我们提供了对未经证明交通的方法的概念性的见解。使用现实世界杭州交通数据集的评估表明,绘图优于最先进的规则和深度增强学习算法,展示了基于RL的方法来改善城市交通流量的潜力。
translated by 谷歌翻译
目标。借助(子)毫米观测值的大量分子发射数据和詹姆斯·韦伯(James Webb)空间望远镜红外光谱,访问原磁盘的化学成分的快进模型至关重要。方法。我们使用了热化学建模代码来生成各种多样的原行星磁盘模型。我们训练了一个最初的邻居(KNN)回归剂,以立即预测其他磁盘模型的化学反应。结果。我们表明,由于所采用的原行业磁盘模型中局部物理条件之间的相关性,可以仅使用一小部分物理条件来准确地重现化学反应。我们讨论此方法的不确定性和局限性。结论。所提出的方法可用于对线排放数据的贝叶斯拟合,以从观测值中检索磁盘属性。我们提出了在其他磁盘化学模型集上再现相同方法的管道。
translated by 谷歌翻译